新聞中心

人工智能國際頂級會議比賽,北大學(xué)生奪冠

2023/03/09    信息來源: 北京大學(xué)官方微信   作者:    編輯:王道琳

“火出圈”的聊天機器人程序ChatGPT

和《流浪地球2》中的“幕后大佬”MOSS

近日引起人們的好奇

敲代碼、寫情書、做題......

ChatGPT為什么啥都會

人工智能是如何變得“智能”的

事實上,這一切都離不開

研發(fā)者“耳提面命”式的啟蒙、指導(dǎo)和訓(xùn)練

讓我們通過一項訓(xùn)練人工智能轉(zhuǎn)骰子的比賽

看看北京大學(xué)圖靈班兩名大三學(xué)生

如何指導(dǎo)出一名聰明的“人工智能學(xué)生”

耿逸然(左)安博施(右)

趣味性比賽與硬核挑戰(zhàn)

在人工智能頂級會議NeurIPS2022(第36屆神經(jīng)信息處理系統(tǒng)大會)上,由北京大學(xué)人工智能研究院楊耀東助理教授計算機學(xué)院前沿計算研究中心董豪助理教授共同指導(dǎo),北京大學(xué)信息科學(xué)技術(shù)學(xué)院2020級圖靈班本科生耿逸然安博施作為共同第一作者獲得MyoChallenge挑戰(zhàn)賽Die Reorientation賽道冠軍。

國際會議報告截圖

挑戰(zhàn)賽提供了一套高逼真度的肌肉-骨骼靈巧手模型以及交互環(huán)境,參賽者需要設(shè)計一套科學(xué)有效的訓(xùn)練方法,培養(yǎng)出一個通用的人工智能算法,來控制仿生靈巧手完成隨機的抓取、轉(zhuǎn)動骰子等既定任務(wù),最終成功率最高、需要肌肉施加力最小的團隊將獲勝。該挑戰(zhàn)吸引了來自全球十多個國家的40個頂尖隊伍參加,共產(chǎn)生了340余份有效方案。

怎樣教會人工智能認識骰子?怎樣指導(dǎo)它用手靠近并抓取骰子?怎樣訓(xùn)練它轉(zhuǎn)動骰子到指定角度?看似有趣的比賽背后是一系列的挑戰(zhàn)。

不同于只能控制每個獨立關(guān)節(jié)的靈巧手,此次比賽采用的基于肌肉的仿生靈巧手具有“牽一發(fā)而動全身”的特點,如果控制指尖的肌肉收縮,整根手指的所有關(guān)節(jié)都會受到影響;控制一個關(guān)節(jié)向不同方向轉(zhuǎn)動也將涉及到不同的肌肉。此外,MyoChallenge的手部模型還引入了肌減少癥肌肉疲勞肌腱轉(zhuǎn)移等異常情況,再加上挑戰(zhàn)環(huán)境包含了物體初始位置隨機化、任務(wù)目標(biāo)隨機化以及物體的物理屬性(如物體大小和摩擦力)的隨機化等許多隨機參數(shù),意味著一個更接近人類手部條件的復(fù)雜仿生手和一個隨機變化的未知環(huán)境,這既考驗人工智能從一無所知到熟能生巧的學(xué)習(xí)能力,也考驗作為“老師”的參賽者們的訓(xùn)練策略。

左側(cè):不同靈巧手控制方式;右側(cè):MyoChallenge中的特殊靈巧手模型

怎么“教”人工智能?

比賽的核心競爭集中在尋找一個能夠適應(yīng)特殊手部控制模型以及參數(shù)隨機化的策略,也就是說,因材施教地指導(dǎo)人工智能自主學(xué)習(xí)。對耿逸然和安博施來說,在特定的問題背景中選取合適的方法成為最大的挑戰(zhàn)。在經(jīng)歷了幾次嘗試的失敗后,他們決定采用強化學(xué)習(xí)框架來在模擬器里訓(xùn)練他們的策略,通過獎勵塑造(Reward Shaping)、課程學(xué)習(xí)(Curriculum Learning)和目標(biāo)訓(xùn)練(Multi-target Training)等技巧來提高訓(xùn)練后的策略的性能。

獎勵塑造

這一方法就好比訓(xùn)練動物完成一些特殊動作的過程。水族館中飼養(yǎng)員在海豚完成高難度動作后用作獎勵的小魚類似于強化學(xué)習(xí)框架下的獎勵函數(shù),在算法有希望完成目標(biāo)動作的時候加大獎勵函數(shù),從而激勵算法逐漸掌握目標(biāo)動作。

課程學(xué)習(xí)

這與人類從易到難學(xué)習(xí)一門知識的過程相似。如果一次性完成骰子重定向任務(wù)很難,那就拆分成三個課程分別學(xué)習(xí):拿穩(wěn)骰子、90°以內(nèi)的重定向、180°以內(nèi)的重定向。算法將先從最簡單的拿穩(wěn)骰子學(xué)起,最后完成最困難的180°重定向任務(wù),在逐步增加課程難度的過程中使算法的性能穩(wěn)定上升。

多目標(biāo)學(xué)習(xí)

相比于課程學(xué)習(xí)通過改變環(huán)境難度逐步完成任務(wù),多目標(biāo)學(xué)習(xí)則是在不變的環(huán)境難度下將一個課程分解成多個子任務(wù),這與體操比賽中的組合動作練習(xí)類似。在體操中,運動員需要連續(xù)地完成一系列不同的動作。多目標(biāo)學(xué)習(xí)過程要求算法控制仿生靈巧手連續(xù)地完成多個重定向任務(wù),從而提高對物體的掌控能力。

方法概覽

與之相伴的問題是,訓(xùn)練策略的過程中需要大量算力支持,耿逸然打了一個形象的比方:“我們面臨的算力需求大概是日常使用的‘游戲本’電腦的10倍甚至30倍,在此基礎(chǔ)上訓(xùn)練一個有競爭力的智能體需要的訓(xùn)練時間大致為3到5天。”學(xué)院及時為他們提供了硬件上的支持,在指導(dǎo)老師楊耀東和董豪的幫助之下,算力問題得到有效解決,這也為團隊的研發(fā)打下良好的基礎(chǔ)。最終,這些方法共同產(chǎn)生的成功率比MyoChallenge中給出的基線算法有了明顯的改善(在挑戰(zhàn)的第一階段提升為70%,第二階段為11%)。

經(jīng)過MyoChallenge提供的仿生靈巧手控制算法測試平臺的驗證,在本次的挑戰(zhàn)中,耿逸然和安博施團隊采用的強化學(xué)習(xí)框架下基礎(chǔ)而有效的方法,證明了強化學(xué)習(xí)算法進行復(fù)雜的骨骼-肌肉模型的運動控制以及與物體交互的可行性。

成長的“沃土”

耿逸然和安博施能夠在人工智能國際頂級會議的比賽中拿到冠軍并在會議中做報告實屬不易。成就的背后是北京大學(xué)圖靈班和北京通用人工智能研究院的有力支撐:圖靈班的科研輪轉(zhuǎn)為學(xué)生了解不同方向、學(xué)習(xí)多元內(nèi)容、立體認識科研提供了良好的環(huán)境;而北京通用人工智能研究院匯集了一群頂級的人工智能專家,幫助本科生也能走到國際科研最前沿。耿逸然坦言這樣的科研環(huán)境之于他的重要作用:

我的科研導(dǎo)師是董豪老師和楊耀東老師,他們總能給我及時的指導(dǎo)和幫助,從理論學(xué)習(xí)到實驗設(shè)計,再到論文寫作與投稿,都能“手把手”幫我解決問題。

除此之外,圖靈班科研輪轉(zhuǎn)還提供了和其他不同領(lǐng)域的老師學(xué)習(xí)知識,拓展視野的機會:我分別在王鶴老師、穆亞東老師、盧宗青老師那里學(xué)習(xí)了三維視覺、機器人和視覺相關(guān)的結(jié)合內(nèi)容以及強化學(xué)習(xí)的理論知識。

而在北京通用人工智能研究院,朱松純院長為我指明了研究方向,我也有機會和許多非常優(yōu)秀的研究員一起合作。


北大2020級圖靈班第一次班會合影

在這些知識背景的滋養(yǎng)下,他在ICRA2023(國際機器人與自動化頂級會議)中,再次與安博施作為共同第一作者發(fā)表了題為RLAfford:End-to-End Affordance Learning for Robotic Manipulation(基于端到端可操作性學(xué)習(xí)的機器人操縱框架)的研究論文,并參與了另外兩篇ICRA中稿論文的算法設(shè)計與實驗。

在RLAfford中,作者利用強化學(xué)習(xí)過程中的接觸信息,結(jié)合三維視覺表達可操作性信息,可以統(tǒng)一描述各類操作任務(wù)(如開關(guān)門,抓取物體等任務(wù)),并具有即插即用的特點。

在這次比賽的基礎(chǔ)上,他與合作者繼續(xù)探索著人工智能與環(huán)境交互的問題,從機械臂到靈巧手,從簡單環(huán)境到復(fù)雜場景,從虛擬引擎到真實世界,不斷探索人工智能的無限可能性。

機械臂與靈巧手在虛擬環(huán)境和真實世界中進行訓(xùn)練與測試


上一條:北大榮膺CUBAL北京賽區(qū)雙冠王 下一條:大六位教授獲得首期“新基石研究員項目”資助

關(guān)閉

版權(quán)所有2021?北京大學(xué)教育基金會|京ICP備15026609號-1

地址:北京大學(xué)鏡春園75號|郵編:100871|電話:86-10-62759066

潮安县| 南昌县| 莲花县| 遂宁市| 洞头县| 高要市| 梨树县| 雷州市| 青铜峡市| 孝感市| 清远市| 古蔺县| 扎囊县| 高雄县| 囊谦县| 天台县| 芮城县| 孝义市| 调兵山市| 田阳县| 固镇县| 乌兰察布市| 舞钢市| 胶南市| 文化| 会同县| 邯郸县| 余姚市| 盐津县| 额尔古纳市| 嘉义市| 共和县| 招远市| 壶关县| 衡阳市| 克东县| 伊川县| 老河口市| 玛曲县| 锦州市| 康平县|